메뉴

#LMSYS Arena

HN
Hacker News 17일 전
IMP 8

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

AI 모델 평가 LMSYS Arena 성능 저하